随机梯度下降(SGD)由于其计算效率而被广泛用于深度学习,但对为什么SGD的性能如此出色的完全理解仍然是一个重大挑战。从经验上观察到,损失功能的大多数特征值在过度参数的深神经网络的损失景观上接近零,而只有少数特征值大。零特征值表示沿相应方向的零扩散。这表明最小值选择的过程主要发生在与Hessian最高特征值相对应的相对较低的子空间中。尽管参数空间非常高,但这些发现似乎表明SGD动力学可能主要存在于低维歧管上。在本文中,我们采取了一种真正的数据驱动方法,以解决对高维参数表面的潜在深入了解,尤其是通过分析通过SGD或任何其他任何其他数据来追溯到SGD所追踪的景观的理解,尤其是对景观的了解。为此,优化器为了发现优化景观的(本地)低维表示。作为探索的车辆,我们使用R. Coifman和合着者引入的扩散图。
translated by 谷歌翻译
内核平均值嵌入是一种强大的工具,可以代表任意空间上的概率分布作为希尔伯特空间中的单个点。然而,计算和存储此类嵌入的成本禁止其在大规模设置中的直接使用。我们提出了一个基于NyStr \“ Om方法的有效近似过程,该过程利用了数据集的一个小随机子集。我们的主要结果是该过程的近似误差的上限。它在子样本大小上产生足够的条件以获得足够的条件。降低计算成本的同时,标准的$ n^{ - 1/2} $。我们讨论了此结果的应用,以近似的最大平均差异和正交规则,并通过数值实验说明了我们的理论发现。
translated by 谷歌翻译
本文侧重于NYSTR \“{o} M正常化的学习速率分析,为$ \ tau $ -mixing时间序列使用顺序子采样。使用最近开发的Banach-valueed Bernstein不等式以\ tau $ -mixing序列和一个基于二阶分解的积分操作方法,我们成功地推出了NYSTR \“{o} M正常化的最佳学习率,以及用于$ \ TAU $ -MIXING时间序列的顺序子采样。进行了一系列数值实验以验证我们的理论结果,显示NYSTR \“{o} M正则化的优异学习性能,在学习大规模时间序列数据中具有顺序子采样。所有这些结果都扩展了NYSTR \适用范围“{o} M正常化从IID对非i.i.d的样品。序列。
translated by 谷歌翻译
NYSTR \“ OM方法是提高内核方法可伸缩性的最流行技术之一。但是,它尚未与经典PCA一致的核PCA得出。在本文中,我们使用NyStr \”来得出核PCA。OM方法,从而提供了使内核PCA可扩展的少数可用选项之一。我们通过与完整方法相比,通过有限样本的置信度结合了经验重建误差,进一步研究其统计精度。该方法和绑定的行为通过在多个现实世界数据集上的计算机实验进行说明。作为该方法的应用,我们使用NyStr \“ Om方法表示内核主成分回归,作为NyStr \“ Om内核脊回归的替代方案,可用于使用核有效正规化回归。
translated by 谷歌翻译
从大型套装中选择不同的和重要的项目,称为地标是机器学习兴趣的问题。作为一个具体示例,为了处理大型训练集,内核方法通常依赖于基于地标的选择或采样的低等级矩阵NYSTR \“OM近似值。在此上下文中,我们提出了一个确定性和随机的自适应算法在培训数据集中选择地标点。这些地标与克尼利克里斯特步函数序列的最小值有关。除了ChristOffel功能和利用分数之间的已知联系,我们的方法也有限决定性点过程(DPP)也是如此解释。即,我们的建设以类似于DPP的方式促进重要地标点之间的多样性。此外,我们解释了我们的随机自适应算法如何影响内核脊回归的准确性。
translated by 谷歌翻译